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摘要 : [目的 /意义 ] 近年 来 ， 知 识 图 谱 技 术 受 到 学 术 界 和 工业 界 的 普遍 关注 。 提 出 数据 驱动 的 增 量 
式 知识 图 谱 构 建 方法 ， 为 构建 重 直 知识 图 谱 提供 一 种 新 思路 。 同 时 ， 通 过 3 个 用 例 研 究 提供 垂直 知识 图 谱 
的 应 用 示范 。 [ 方法 /过 程 ] 首先 给 出 知识 图 谱 的 形式 化 定义 ， 然 后 提出 数据 驱动 的 增 量 式 知 识 图 谱 构 建 方 
法 ， 重 点 研究 构建 重 直 知识 图 谱 数 据 图 的 细节 与 难点 。 基 于 该 方法 ， 本 文 构建 了 中 医药 知识 图 谱 、 海 洋 知 
识 图 谱 和 企业 知识 图 谱 。[ 结果 /结论 ] 义 上 垂直 知识 图 谱 的 构建 证 实 了 本 方法 的 可 行 性 ， 它 们 各 自 的 重 直 


应 用 体现 了 知识 图 谱 的 广泛 应 用 。 
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Ola 

自从 语义 网 络 的 概念 提出 以 来 ， 大量 的 链 
接 开 放 数 据 ( Linked Open Data， 简 称 LOD ) 和 
用 户 生成 内 容 (User-generated Content, faj 称 
UGC) 发 布 在 互联 网 中 ， 互 联网 从 仅 包含 网 页 
与 网 页 之 间 超 链接 的 文档 万 维 网 逐步 转变 为 包 
含 大 量 描述 实体 和 实体 之 间 丰 富 关 系 的 数据 万 
维 网 。 在 此 背景 下 ， 为 改善 搜索 引擎 效果 ， 和 从 
歌 公司 于 2012 年 提出 “知识 图 谱 ”的 概念 — 


种 描述 真实 世界 客观 存在 的 实体 、 概 念 及 它们 
之 间 的 关联 关系 的 语义 网 络 。 

基于 知识 图 谱 的 应 用 领域 ， 本 文 将 知识 图 
谱 分 为 通用 知识 图 谱 和 垂直 知识 图 谱 (或 行业 
知识 图 谱 ) 。 通 用 知识 图 谱 不 面向 特定 领域 ， 可 
将 其 类 比 为 “结构 化 的 百科 知识 ”。 这 类 知识 图 
谱 包 含 了 大 量 常 识 性 知识 ， 强 调 知识 的 广度 。 
具有 代表 性 的 大 规模 通用 知识 图 谱 有 YAGO, 
DBpedia™!, Freebase"! NELL 等 ， 中 文通 用 
知识 图 谱 有 Zhishi.me! 和 SSCOM。 重 直 知识 图 
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谱 则 面向 特定 领域 ， 基 于 行业 数据 构建 ， 强 调 
ALAR SE. TE EAR TS BY DA EE Pi SL 
技术 的 行业 知识 库 ， 其 潜在 使 用 者 是 行业 的 专 
业 人 员 。 

在 通用 知识 图 谱 的 构建 方面 ， 已 有 相对 成 
熟 的 技术 和 知识 岁 谱 产品 ， 例 如 各 大 搜索 引擎 
公司 发 布 的 谷歌 知识 图 谱 、 百 度 “ 知心 ” 搜狐 
“ 知 立方 ”等 商用 知识 图 谱 。 而 在 垂直 知识 图 谱 
的 构建 方面 ， 现 有 垂直 知识 图 谱 常 采 用 手工 构 
建 方式 ， 缺 乏 一 套 统一 的 垂直 知识 岁 谱 构建 方 
法 。 基 于 此 ， 本 文 面向 垂直 知识 图 谱 ， 首 先 对 
其 进行 形式 化 定义 ， 然 后 提出 数据 驱动 的 增 量 
式 知识 图 谱 构建 方法 : 从 多 种 类 型 的 数据 源 出 
Ke, 研究 知识 获取 、 融 合 过 程 中 的 细节 与 难点 。 
最 后 ， 本 文 利用 所 提出 的 知识 图 谱 构建 方法 构 
建 了 中 医药 知识 图 谱 、 海 洋 知识 图 谱 和 企业 知 
识 图 谱 ， 并 对 各 自 的 垂直 应 用 加 以 阐述 ， 证 实 
了 本 文 方法 的 可 行 性 和 垂直 知识 图 谱 的 广泛 应 
用 性 。 


模式 图 G=<N,, E> 
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人 @ 知 识 图 谱 的 形式 化 定义 


通用 知识 图 谱 与 垂直 知识 图 谱 的 本 质 并 无 区 
别 ， 因 此 本 文 对 两 类 知识 图 谱 统 一 地 进行 定义 。 如 
图 1 所 示 ， 知 识 图 谱 G 由 模式 图 G,、 数 据 图 G 及 
二 者 之 间 的 关系 尺 组 成 ， 即 G=<G,G,R>. fast 
图 G=<N, E>， 其 中 入 ,表示 类 结 点 的 集合 , EKR 
示 属 性 边 的 集合 。 模 式 图 G, 中 的 类 ( 结 点 ) 即 为 
知识 图 谱 中 的 概念 ， 而 属性 OA) 则 对 应 概念 之 
的 语义 关系 ， 包 括 rdfs:subClassOf、rdfs:equivalent 
Class 这 类 来 自 语 义 网 络 现 有 标准 RDFS 的 属性 
和 employer 等 用 户 自 定义 的 属性 。 与 此 类 似 ,数据 
图 GEN, E> 中 的 结 点 集 包含 实例 结 点 和 字符 串 结 
Bi, WRES ,中 的 边 连 接 两 个 结 点 表示 一 条 三 元 组 
事实 ， 如 <Bi Gates, alaMater, Harvard University>, 
此 处 ， 实 例 即 实体 ， 表 示 计 算 机 可 识别 的 客观 世界 
对 象 ， 而 字符 串 常 作为 实例 的 某 一 属性 值 。 模 式 图 
G, 和 数据 图 Gi 之 间 的 关系 R 由 rdftype 构成 ， 表示 
数据 图 中 的 实例 与 所 属 概念 之 间 的 关系 。 


x 


类 (概念 ) 


字符 中 


— 
C 实例 (实体 ) 


rdfs:equivalentClass 


数据 图 GEN E> 


Bill_Gates 
placeOfBirth 


almaMater 


dataOfBirth 


Harvard_University 


“Bill Gates”@en 


*1955-10-28°”xsd:date 


faculty 


图 1 知识 


图 谱 的 定义 示例 
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AAA AA EN MA: 首先 ， 知 
识 图 谱 易 于 修改 数据 模式 ， 具 有 良好 的 动态 可 
扩充 性 。 在 构建 知识 图 谱 时 可 以 利用 该 特性 进 
行 增 量 式 的 数据 模式 设计 。 其 次 ， 知 识 图 谱 的 
语义 互 操作 特性 和 “链接 数据 ”原则 ， 使 得 不 
同 来 源 的 数据 集成 更 为 方便 。 此 外 ， 知 识 图 谱 
支持 RDFS 、OWLI、SPARQLI9 等 现 有 标准 , 可 
以 逐渐 要 求 内 容 供应 商 提供 支持 。 最 后 ， 知 识 
图 谱 显 式 地 表达 实体 之 间 的 关系 ， 可 用 于 开发 
语义 检索 、 自 动 问答 等 应 用 。 


全 相关 工作 


在 知识 图 谱 的 构建 方面 ,已 经 积累 了 大 量 
通用 知识 图 谱 构 建 的 工作 。 早期 主要 通过 人 工 构 
建 的 方式 ， 形 成 了 WordNet, ResearchCyc"” 
等 通用 知识 图 谱 。 此 后 ， 大 量 知识 图 谱 基 于 维 
基 百 科 进 行 构建 ， 如 YAGO, DBpedia 等 。 但 
由 于 抽取 的 目标 数据 不 同 ， 它 们 的 知识 丰富 度 
各 有 差异 ""。 其 中 ，DBpedia 抽取 了 维基 百科 
中 信息 框 中 的 所 有 信息 和 统计 信息 ; 而 YAGO 
仅 从 维基 百科 中 抽取 其 自 定义 的 属性 ， 并 使 用 
WordNet 进行 数据 整合 ， 因 而 准确 率 更 高 ， 但 知 
识 丰 富 度 低 于 DBpedia。 不 同 于 上 述 工具 , Zhishi. 
me 和 SSCO 专注 于 构建 中 文 知识 图 谱 ， 除 了 
使 用 中 文 维基 百科 ， 还 额外 使 用 互动 百科 和 百 
度 百科 这 两 个 非常 流行 的 中 文 百科 站 点 。 近 年 
来 ， 基 于 开放 域 知识 抽取 的 知识 图 谱 构建 项 目 
受到 关注 ， 如 KnowItAlIL9、NELL。 它 们 使 用 
增 量 迭代 的 方法 从 大 量 的 网 页 数据 中 学 习 出 高 
质量 三 元 组 来 构建 知识 图 谱 。 

然而 ， 由 于 垂直 知识 图 谱 与 通用 知识 图 谱 
的 应 用 范围 不 同 ， 它 们 采取 的 构建 方法 也 有 所 
区 别 。 上 述 通用 知识 图 谱 采 取 自 底 向 上 的 方式 
进行 构建 ， 这 种 方法 有 利于 发 现 新 的 知识 图 谱 
模式 。 而 垂直 知识 图 谱 注 重 知识 的 层次 结构 , 通 
常 需要 预先 构建 模式 图 。 由 于 通用 知识 图 谱 的 
构建 方法 不 适用 于 垂直 知识 图 谱 ， 而 现 有 的 高 
质量 垂直 知识 图 谱 常 采用 手工 构建 的 方法 ， 本 
文 提出 了 数据 驱动 的 增 量 式 知 识 图 谱 构 建 方 
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法 ， 为 自动 地 构建 垂直 知识 图 谱 提 供 一 套 通用 
的 方法 。 本 文通 过 自 顶 向 下 的 方式 构建 知识 图 
谱 的 模式 图 ， 自 底 向 上 的 方式 构建 数据 图 。 这 
种 方式 可 以 保障 数据 抽取 的 质量 。 在 具体 的 构 
建 过 程 中 ， 本 文 借鉴 了 已 有 的 通用 知识 图 谱 构 
建 方法 : 将 百科 知识 作为 一 类 重要 的 知识 源 ， 同 
时 将 增 量 迭 代 方 法 用 于 文本 类 型 的 知识 抽取 。 


O 垂直 知识 图 谱 的 构建 


4.1 总 体 流程 

由 于 垂直 知识 图 谱 强 调 知 识 的 深度 和 整 
体 的 层次 结构 ， 在 构建 时 常 采 用 自 顶 向 下 
和 自 底 向 上 相 结 合 的 方式 。 其 中 ， 自 项 向 下 
的 方式 是 指 通 过 本 体 编辑 右 或 手工 构建 的 方 
法 预先 构建 垂直 知识 图 谱 的 模式 图 ， 进 而 构 
建 数据 图 。 而 自 底 向 上 的 方式 指 在 构建 数据 
图 时 ， 利 用 多 种 抽取 技术 获得 知识 源 中 的 实 
体 、 属 性 和 关系 ， 并 将 这 些 置 信 度 高 的 抽取 
结果 合并 到 知识 图 谱 中 。 

正如 图 1 所 示 ， 知 识 图 谱 G 由 模式 图 
G,、 数 据 图 Gu 及 二 者 之 间 的 关系 及 组 成 。 本 
文 在 已 经 构建 了 垂直 知识 图 谱 模 式 岁 G, 的 前 提 
下 ， 从 数据 源 出 发 ， 采 用 自 底 向 上 的 方式 说 明 
构建 垂直 知识 图 谱 数 据 图 Gu 和 关系 R 的 过 程 。 

如 图 2 所 示 ， 知 识 来 源 主要 分 为 结构 化 知 
识 、 半 结构 化 知识 和 非 结构 化 知识 。 对 于 结构 
化 知识 ， 有 大 量 的 链接 开放 数据 和 存放 在 关系 
数据 库 中 的 领域 知识 。 对 于 半 结 构 化 知识 ， 维 
基 百 科 、 互 动 百 科 、 百 度 百 科 等 百科 网 站 提供 
的 信息 框 (Infobox ) 是 一 种 半 结 构 化 知识 。 
此 外 ,不 同 领域 下 的 垂直 站 点 包含 了 大 量 的 表 
格 、 列 表 数 据 ， 这 也 是 半 结 构 化 知识 。 非 结构 
化 知识 是 指 网 络 数据 中 大 量 的 纯 文本 内 容 ， 其 
知识 覆盖 度 最 广 ， 但 抽取 难度 也 最 大 。 

从 知识 来 源 出 发 ， 主 要 通过 知识 获取 和 知 
识 融 合 两 个 步 又 构建 知识 图 谱 。 根 据 知识 图 谱 
本 身 的 特性 ， 我 们 可 以 使 用 增 量 迭 代 的 方式 不 
断 丰 富 所 构建 的 知识 图 谱 。 这 一 构建 过 程 称 为 
数据 驱动 的 增 量 式 知 识 图 谱 构 建 。 
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知识 融合 


上 同义词 关系 
“属性 - 值 ” 关 系 
实体 类 型 


半 结 构 化 知识 


图 2 数据 驱动 的 增 量 式 知识 图 谱 构 建 


4.2 知识 获取 

知识 获取 阶段 需要 从 知识 源 中 获取 实体 、 同 
义 词 关系 “属性 - 值 ”* 关 系 以 构建 数据 图 
Gs， 同 时 需要 获取 实体 类 型 以 构建 关系 RR。 由 
于 知识 来 源 众 多 ， 且 不 同 知识 源 之 间 存 在 数据 
重合 ， 因 此 如 何 针对 不 同 的 知识 源 类 型 采用 合 
适 的 抽取 方法 ， 并 充分 利用 知识 源 之 间 的 数据 
宛 余 性 是 知识 获取 阶段 的 难点 。 

本 文 作 者 提出 多 策略 学 习 的 方法 进行 知识 
获取 " 。 多 策略 学 习 是 指 利 用 不 同 知 识 源 之 间 
的 元 余 信息 ， 使 用 较 易 抽取 的 信息 来 辅助 抽取 那 


半 结 构 化 知识 


WIKIPEDIA 


些 不 易 抽 取 的 信息 。 结 构 化 知识 和 半 结 构 化 知识 
由 于 具有 显 式 的 结构 和 固定 的 格式 ， 属 于 易 抽取 
的 信息 ， 而 无 结构 的 文本 知识 属于 较 难 抽取 的 信 
息 。 如 图 3 所 示 ， 对 于 结构 化 知识 中 的 关系 数据 
库 数 据 ， 可 以 通过 D2R (Relational Database to 
RDF ) 映射 的 方法 将 其 转化 成 知识 图 谱 中 的 链接 
数据 。 对 于 百科 数据 中 的 信息 框 、 表 格 等 半 结 构 
化 知识 , 使 用 基于 封装 器 ( Wrapper ) 的 抽取 方法 。 
封装 需 是 面向 某 一 具有 特殊 结构 的 数据 源 的 信息 
抽取 方法 。 对 以 上 两 类 知识 进行 抽取 ， 并 将 抽取 
结果 加 入 种 子 集中 。 


m 非 结 构 化 知识 


=... 


3 多 数据 源 的 抽取 示意 
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对 于 无 结构 的 纯 文 本 知识 ， 采 用 远程 监督 
( Distant Supervision ) 04 和 基于 模式 的 方法 相 
结合 的 增 量 迭代 抽取 方式 。 远 程 监督 是 一 种 基 
于 假设 “ 如 果 两 个 实体 存在 某 种 关系 ,那么 任 
何 包 含 这 对 实体 的 句子 都 很 有 可 能 表达 相同 的 
关系 ” 利用 已 知 的 实体 关系 对 自动 标注 文本 的 
方法 。 这 里 就 可 以 利用 种 子 集 自 动 标注 文本 数 
据 ， 然 后 根据 标注 结果 自动 地 生成 高 质量 的 模 
式 。 利 用 这 些 模 式 到 文本 中 学 习 新 的 知识 ， 并 
加 入 到 种 子 集中 。 这 一 过 程 不 断 迭 代 ， 直 至 没 
有 新 的 知识 被 学 习 出 来 。 
4.3 知识 融合 

知识 获取 阶段 仅仅 是 从 不 同类 型 的 知识 源 
抽取 构建 知识 图 谱 所 需 的 实体 、 属 性 和 关系 ， 形 
成 了 一 个 个 孤立 的 抽取 图 谱 。 为 了 形成 一 个 完 
整 的 知识 图 谱 ， 需 要 将 这 些 抽 取 结 果 集 成 到 知 
识 图 谱 中 ， 以 进行 知识 融合 。 在 进行 知识 融合 
时 ， 需 要 解决 多 种 类 型 的 数据 冲突 问题 ， 包 括 
一 个 短语 对 应 多 个 实体 、 实 体 属 性 名 不 一 致 、 实 
体 属 性 缺失 、 实 体 属 性 值 不 一 致 、 实 体 属 性 值 
一 对 多 映射 等 情况 。 知 识 融 合 阶段 主要 对 数据 
进行 实体 匹配 和 模式 对 齐 。 

实体 匹配 旨 在 发 现 具 有 不 同 标识 但 代表 真 
实 世 界 中 同一 对 象 的 那些 实体 ， 并 将 这 些 实体 
合并 为 一 个 具有 全 局 唯一 标识 的 实体 对 象 添加 
到 知识 图 谱 中 。 目 前 常 采用 聚 类 的 方法 进行 实 
体 匹配 ， 其 关键 在 于 定义 合适 的 相似 度 度量 。 
这 些 相 似 度 度量 常 参 考 实体 的 以 下 特征 : OF 
符 相 似 : 具有 相同 描述 的 实体 可 能 代表 同一 实 
体 ; @) 属 性 相似 : 具有 相同 属性 - 值 关系 的 实体 
可 能 代表 同一 对 象 ，@ 结 构 相 似 ， 具有 相同 的 
相 邻 实体 可 能 指向 同一 个 对 象 。 

模式 对 齐 主要 包括 实体 属性 和 属性 值 的 整 
合 。 对 于 实体 属性 的 整合 ， 可 以 考虑 的 特征 有 
届 性 的 同义词 、 属 性 两 端的 实体 类 型 ， 以 及 属 
性 在 抽取 过 程 中 对 应 的 模式 等 。 当 融合 来 自 不 
同 知识 源 的 数据 出 现 数据 冲突 时 ， 还 可 以 考虑 
知识 源 的 可 靠 性 以 及 不 同 信息 在 各 知识 源 中 出 
现 的 频 度 等 因素 。 本 文 作者 对 搜索 引擎 提供 的 


i) 
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知识 卡片 进行 合并 ""， 提 供 了 一 种 在 线 知识 融 
合 的 思路 。 该 方案 首先 提出 一 种 基于 概率 的 实 
体 评分 算法 找 与 知识 卡片 最 相关 的 维基 百科 词 
条 ， 由 此 合并 代表 同一 实体 的 不 同 知 识 卡 片 。 
然后 ， 将 维基 百科 的 信息 框 与 DBpedia 本 体 的 
映射 关系 作为 训练 数据 ， 设 计 四 维特 征 训练 出 
属性 对 齐 模 型 。 最 后 使 用 相似 度 国 值 对 属性 值 
UTTAR SAI, TRUER 


O EAA OTE 


本 文 利 用 数据 驱动 的 增 量 式 知识 图 谱 构 
建 方法 分 别 构建 了 中 医药 知识 图 谱 、 海 洋 知 
识 图 谱 和 行业 知识 图 谱 。 下 文 将 分 别 曾 述 这 3 
个 垂直 知识 图 谱 的 构建 过 程 和 具体 应 用 ， 以 
说 明 本 文 方法 的 有 效 性 和 垂直 知识 图 谱 的 广 
泛 应 用 。 

5.1 中 医药 知识 图 谱 

中 医药 领域 已 经 积累 了 大 量 专业 知识 的 分 
类 信息 ， 我 们 可 以 根据 这 些 知识 构建 中 医药 知 
识 图 谱 的 模式 图 。 目 前 主要 基于 中 医 病 证 分 类 
与 代码 ( 国家 标准 ) 、 中 华中 医药 学 会 提供 的 
诊疗 指南 、 上 海中 医药 大 学 附属 曙光 医院 的 药 
品 数 据 库 构建 了 中 医药 知识 图 谱 的 疾病 库 、 证 
库 等 子 库 的 模式 图 。 对 于 中 医药 知识 图 谱 数 据 
图 的 构建 ， 本 文 分 别 使 用 D2R 映射 方法 从 曙 
光 医 院 的 关系 数据 库 中 抽取 药品 信息 ; 构造 
Microsoft Office 软件 的 封装 器 ， 从 “98 版 证 名 分 
类 标准 ”等 国家 标准 以 及 曙光 医院 以 Microsoft 
Word 格式 存储 的 临床 知识 库 中 抽取 疾病 、 药 方 
等 信息 ; 利用 模式 和 远程 监督 结合 的 方法 迭代 
地 学 习 百 科 和 中 医药 网 站 下 的 纯 文 本 知识 。 由 
于 从 多 个 数据 源 中 抽取 数据 ， 不同 的 数据 源 之 
间 会 存在 重复 或 冲突 。 本 文 对 数据 源 的 可 信 度 
进行 评分 ， 基 于 数据 来 源 以 及 数据 在 不 同 来 源 
中 出 现 的 次 数 ， 对 数据 项 进行 排序 ， 以 解决 数 
据 冲 突 问题 。 

本 文 形成 的 中 医药 知识 图 谱 主 要 包括 疾病 
库 、 证 库 、 证 状 库 、 中 草药 库 和 方剂 库 。 基 于 
中 医药 知识 图 谱 可 以 进行 中 医药 相关 的 自然 语 
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言 问答 。 同 时 ， 利 用 推理 引 警 Drools""， 可 进 
行 中 医药 辅助 开 方 。 

中 医药 方 分 为 基础 药方 和 经 验 药方 。 基 础 
药方 由 疾病 和 证 决定 ， 经 验 药方 则 需要 根据 病 
人 所 患 症状 确定 。 当 医生 诊断 出 病人 患 有 的 疾 
病 、 证 及 症状 后 ， 经 过 中 医药 知识 图 谱 的 推理 
即 可 得 到 推荐 药方 。 如 图 4 所 示 ， 中 医药 知识 


12g…… 川 这 15g 


图 4 中 医药 知识 图 


5.2 海洋 知识 图 谱 

海洋 知识 图 谱 主 要 包括 鱼 类 知识 、 海 洋 经 
济 知识 和 海岛 知识 。 其 中 ， 海 洋 经 济 知识 由 领 
域 专家 收集 并 存储 在 Microsoft Word 文档 中 ， 本 
文 使 用 Microsoft Word 封装 器 将 其 转化 映射 成 
海洋 知识 子 图 。 海 岛 知识 源 于 舟山 海洋 数字 图 
书馆 提供 的 关系 数据 库 ， 使 用 D2R 映射 工具 
DRQ"! 完成 数据 转化 ， 形 成 海岛 知识 子 图 。 

对 于 鱼 类 知识 ,数据 源 众多 ,包括 三 大 中 文 
百科 站 点 、 人 台湾 鱼 类 资料 库 (fisd) 、 世 界 
鱼 类 分 类 阶层 树 状 名 录 (FishBase!) 、 心 食谱 
等 行业 站 点 , 以 及 《中 国 食物 成 分 表 》2002 年 版 ) 
等 文本 数据 ,为 了 构建 鱼 类 知识 子 图 的 模式 图 ,本 
文 利用 HTML 封装 器 从 fishdb 和 FishBase 中 抽 
取 概 念 和 上 下 位 关系 ， 从 百科 页 面 中 抽取 概念 的 
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图 谱 中 存储 的 事实 包含 肝 郁 气 清 证 的 基础 药方 
和 经 验 药方 。 推 理 引 擎 Drools 将 肝 郁 气 滞 证 的 
药方 转化 为 一 系列 规则 。 当 输入 的 病人 患 有 胁 
痛 并 被 诊断 为 肝 邦 气 滞 证 ， 根 据 规则 只 要 使 用 
基本 方 即 可 。 但是, 对 于 同时 患 有 ”“ FT AP” AE 
状 的 病人 ， 根 据 规 则 ， 还 需要 去 除 川 营 ， 增 加 
牡丹 皮 等 中 草药 。 


推理 结果 
Gi sn 12g 
Ci 香 附 159 
Cj WR 12g 
ae Cj 陈皮 6g 
as 15g 
Ei iy 6g 
@ tak +129 
B wr +129 
E wit +*3 
B me +9g 
B aak +12 
谱 用 于 辅助 开 方 


属性 ， 并 利用 多 策略 学 习 方 法 从 以 上 数据 源 中 迭 
代 地 抽取 同义词 关系 。 在 数据 图 的 构建 上 ， 本 文 
从 fishdb 和 FishBase 中 抽取 鱼 类 实例 ， 采 用 多 
种 方法 获取 实例 的 属性 值 。 例 如 ， 使 用 HTML 
封装 器 从 心 食谱 网 站 中 获取 属性 “ 鱼 类 美食 ”的 
值 ， 使 用 模式 从 《中 国 食物 成 分 表 》(2002 年 版 ) 
中 获取 属性 “营养 成 分 ”的 值 。 

海洋 知识 图 谱 的 构建 结果 经 过 海洋 知识 专 
家 检查 并 处 理 数 据 冲 突 后 发 布 ， 目 前 包含 了 全 
球 已 命名 的 3 万 余 种 鱼 类 和 20 多 个 属性 ， 提 供 
海洋 知识 可 视 化 、 语 义 知 识 检索 、 海 洋 知识 推 
荐 等 知识 服务 。 海 洋 知识 图 谱 提 供 车 轮 视图 、 树 
状 视图 和 详情 视图 3 种 可 视 化 检索 方式 ， 分 别 
侧重 展示 实体 间 的 语义 关系 、 海 洋 知识 图 谱 的 
体系 结构 以 及 实体 、 概 念 的 属性 详情 。 此 外 ,其 
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www.kmf.ac.cn 
提供 的 语义 搜索 服务 ， 在 为 用 户 输入 的 自然 语 
言 问题 提供 直接 答案 的 同时 ， 还 展示 实体 的 知 
识 卡片 和 相关 实体 ， 并 结合 图 书馆 的 资源 返回 
文献 搜索 结果 。 如 图 5 所 示 ， 输 入 的 问题 “小 


实体 解析 结果 : 


语义 解析 结果 : 


= EE 
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黄鱼 的 分 布 ” 被 解析 出 实体 “小 黄鱼 ”和 语义 “小 
黄鱼 的 分 布 生 态 系 统 ”， 基 于 此 ， 系 统 返回 语义 


IRAR, 小 黄鱼 ” 的 知识 :卡片 和 相关 实体 , 以 
及 相关 的 文献 资源 。 


小 黄鱼 的 分 布 生态 系统 Y 


小 将 的 分 布 FAO 区 域 “]】 (NAMM) | 


小 黄鱼 的 分 布地 区 “】 「 小 黄鱼 的 分 布 气候 芒 司 
小 黄鱼 的 经 度 范围 


语义 检索 结果 : 
中 国 东海 
SAS 
中 国 黄海 


AFF 
中 国 南海 


共 找 到 相关 资源 254 条 


黄海 南部 和 东海 小 黄鱼 


作者 : 林 龙 山 程 家 绰 SEN 素 兴 伟 F 
建生 BAH 
出 处 : 万 方 期 刊 论文 

I 关键 词 : 小 黄鱼 (Larimichthys I 
polyactis) 6AM ... 

出 版 时 间 : 2008 

一 起 使 用 碱 性 栓 浸 染 小 黄鱼 案 的 评 
析 


作者 : 冯 济 富 黄 明 
出 处 : 万 方 期 刊 论文 
xaa: 食品 生产 经 


基于 线粒体 Cyt ee 东 
(Larimichthys polya.. 海 小 黄鱼 ( 
作者 : ae was Se tait 


xz 
出 处 : 万 方 期 刊 论文 
bed 小 黄鱼 细胞 色素 b 基 因 群体 遗 


出 版 时 间 : 
2000 年 东海 区 小 黄鱼 


(Pseudosciaena pol... 
作者 : 汤 建华 
出 处 : HAM me 


小 黄鱼 。 ”知识 卡片 


文献 检索 结果 


Ke 
ROR EEX PERSE & R 
部 金黄 色 。 为 近海 底层 结 群 …, 


Larim 


相关 搜索 内 容 相关 实体 


用 户 还 搜索 以 下 内 容 


Re mB 


HER 高 银 生 沈 德 华 


图 5 海洋 知识 图 


5.3 企业 知识 图 谱 

企业 知识 图 谱 数 据 整合 了 3 000 万 家 企业 数 
据 以 及 来 自 互 联网 的 专利 数据 与 招 投标 数据 。 
首先 , 领域 专家 构建 了 行业 知识 图 谱 模式 图 ， 包 
含 人 物 、 人 公司、 股票 、 专 利 、 投 资 和 招标 等 项 
层 概念 。 再 者 ， 利 用 D2R 工具 将 企业 提供 的 基 
于 关系 数据 库 的 企业 信息 转化 成 RDF (Resource 
Definition Framework ) 数据 ， 构 成 了 基础 的 企 
业 知 识 图 谱 。 但 此 时 的 企业 知识 比较 简单 ， 需 
要 通过 其 他 数据 来 源 的 数据 进行 补充 。 本 文 先 
增加 专利 与 招 投标 信息 : 从 中 国政 府 采购 网 、 中 
国 专利 信息 网 等 网 站 抓 取 文本 公告 ， 基 于 启发 
式 信息 定义 模式 抽取 企业 招 投标 信息 和 专利 信 
息 。 然 后 基于 百科 与 新 闻 进 一 步 补充 企业 信 


息 ， 包 括 高 管 信息 的 变动 ， 企 业 兼 并 与 收购 信 


企业 知识 图 谱 可 以 提供 实际 控制 人 查询 与 
关系 发 现 等 功能 。 其 中 ， 实 际 控 制 人 查询 功能 是 
指 查询 对 企业 占 股 最 大 的 自然 人 ， 由 于 个 人 对 企 
业 的 控制 可 以 是 直接 投资 ， 也 可 以 通过 个 人 控制 
的 企业 再 来 投资 企业 ， 因 此 ， 算 法 基于 图 的 遍历 
算法 实现 。 用 户 输 入 一 个 企业 ， 系 统 可 以 返回 该 
企业 的 实际 控制 人 。 关 系 发 现 功能 可 以 发 现 公 司 
或 人 物 之 间 的 间接 关系 ， 图 6 展示 了 “ 中国 铝 业 
股份 有 限 公 司 ” 和 “中 信 证 券 股份 有 限 公 司 ” 之 
间 的 关系 ， 其 中 ， 箭 头 代 表 投 资 关 系 ， 该 图 说 
明 , “中国 铝 业 股份 有 限 公司 ” 和 “ 中信 证 券 股 
份 有 限 公司 ” 的 投资 方 共同 投资 了 企业 B。 
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本 文 对 知识 图 谱 进 行 了 形式 化 定义 ， 并 详 


细 描 述 了 数据 驱动 的 增 量 式 知 识 图 谱 构 建 方法 。 
以 该 方法 分 别 构建 了 中 医药 知识 图 谱 、 海 洋 知 
识 图 谱 和 企业 知识 图 谱 ， 并 开发 了 相关 应 用 。 
以 上 3 个 垂直 知识 图 谱 的 构建 证 明了 本 文 提出 
的 构建 方法 的 有 效 性 ， 体 现 了 图 谱 在 知识 融合 
方面 的 优势 ; 它们 的 相关 应 用 反映 了 知识 图 谱 


在 不 同 领域 的 应 用 价值 。 
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Research on the Construction and Applicationof Vertical Knowledge Graphs 
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Abstract: [Purpose/significance] In recent years, knowledge graphs have gained wide attention from 
academia and industry. Knowledge graphs of different domains are widely used in query understanding, 
automatic question answering and document representation. [Method/process] In this paper, the construction 
of vertical knowledge graphs and related applications were studied. Specifically, we first gave a formal 
definition of knowledge graph. Then a data-driven incremental constructing method was proposed. We put 
emphasis on constructing a data graph of a vertical knowledge graph. Based on the proposed method, we 
have built Traditional Chinese Medicine Knowledge Graph, Marine-oriented Knowledge Graph and Security- 
oriented Knowledge Graph. [Result/conclusion] These vertical knowledge graphs illustrate the feasibility of 
our method and extensive usability of vertical knowledge graphs. 
Keywords: knowledge graph knowledge acquisition knowledge fusion semantic search 
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